半年後にAIはいったいどうなっているのか 2026年上半期
👈️ | 半年後にAIはいったいどうなっているのか 2026年上半期
👉️ |
nomadoor.icon
さっぱり分かりません(定期)
画像にしても動画にしても、MLLMとの組み合わせが前提になってきて要求スペック高いのと、各社完成度が上がってきてオープンウェイトにしなくなってきたので、OSSは死ぬかもしれない
それ以前にグラボとメモリが高すぎてユーザー数の危険が危ない
エージェントやらthinkingになってくると、もうComfyUIではダメかも
動画生成モデルを画像編集モデルに転用する流れになるといったような気がするが、動画はあくまで動画で、時間的に繋がりがある必要があるので、画像編集にはあんまり向いてないかもしれない
キャラ・世界観の一貫性を保つ方法が結局LoRAに戻ってきてしまうことが多いので、何か新しいのでてきませんかね?(適当)
フィジカルAI的な流れとして、ハードウェア設計ができるAIがぼちぼち出てきそうな?
単純な製品もそうだし、オーディオアニマトロニクス的なものをAIと設計できたら面白い
ロボットに戦場が移るとして、日本はIPを活用できるに越したことはない…
morisoba65536.icon
保証は全くできないが株価的な意味ではAIバブルは爆発怖いなぁと言うのはかなりある(ソフトランディングしてくれれば理想的だがこう言うのは都合よく行くことはまずないので…)
小型モデルの技術的には本格利用に迎える段階にはいるものの、メモリ高騰の影響でまだ限定的にはなりそうな感じはある…GPT-4級のものならそろそろ2Bクラスに収まっても不思議はないかも知れない
PCやスマホで本格的に動かせる…に技術レベルで到達できてもまだ普及コストに問題しかない
小型化には幾つか利点があって一つは必然的に処理が速くなる点。個人的に期待してるのは「ガチ目に賢い同行NPCメンバーとひとりプレイゲームでもPTをきっちり組める」ようなものだが…
ただ、話題になったAITuberを見ても実質的に中の人が関与する二人三脚からの脱却は本当の意味での世代交代(客層の方)が必要と思うのでZ世代の次が影響力を持つ程度まで待つ必要があるかもしれない(2026年中は私が思ってるような独立分散するような構想の実現は技術的にも人間的にも難しい)
パーソナライズの観点でも小型化すれば個人で勝手にチューニングがしやすくなる、ホントにメモリ高騰と小型化との衝突でどこら辺がターニングポイントになるかは予想はつかないが…
とにかく目下の目の上のたんこぶとも言えるのがメモリ高騰。取り敢えず2年ほどは色んなモノが膠着しそうだなぁとなる…
大型モデルは何だかんだ(少なくともオープンモデルは)300B〜600Bクラスが主流になるんじゃないかなぁと予想している、何も考えずサイズをデカくすればよい、と言うのは普通に頭打ちしそう(多分OpenAI辺りが前に通ってる道)(ただ実性能はともかく「技術力アピール」として肥大化する可能性はある)
大型モデルも含めて汎用モデルと特化モデルの中間というべき「特定タスク向けモデル」にある程度分化していってルーターで切り替える流れに当面は進みそうかな…と言うのは予想してみる
一定(GPT-4クラス)の汎用性は持ちつつ「より数学に特化」「よりコーティングに特化」「より文学に特化」といったある程度得意分野を持たせる方向にシフトさせるんじゃないかなぁと。
ただ、一般層は使い分けができないのでこの辺りの振り分けはルーティングモデルが行う形になる(少なくともサービスレベルではモデルの切り替えを意識させない方向に進みたがる可能性が高い、という意味)
結果的にルーティングモデルの性能も一種のベンチマーク対象になっていくかもしれない
本当の意味での純LLMはだんだん下火になってVLMが主流になりそうな予想はしてる。
DeepSeek-OCRの様なトークンの問題も勿論なのだけども、単純に今させたいタスクが図や映像とほぼセットになっているのでVLMありきに本格的にシフトしていきそうに思ってる。
OpenWeightのllmが画像/動画生成に組み込まれるのに大体半年〜程度かかるようなのでGPT-OSS(20b)辺りが組み込まれたモデルが出てくるとしたらギリギリ上半期あるかな?といった感じ(Z-ImageがQwen3を即組み込めたのは社内のプロジェクトだからと言うのがかなり大きいだろうし)
流石に20Bはファッティな可能性もあるのでQwen3やGemma 3がメインの流れが続いたり、GLM-4.6V-Flashあたりが採用されるかもしれない。